Large World Model (LWM) - 伯克利的大世界模型

Original renee创业狗 Renee 创业随笔

2024-10-09

今天看了篇paper，《World Model on Million-Length Video And Language With Blockwise RingAttention 》，是UC Berkeley进行的关于大世界模型的研究。

简介

Large World Model (LWM) 是一个通用的大上下文多模态自回归模型。它利用RingAttention在一个包含多样化长视频和书籍的大型数据集上进行训练，能够执行语言、图像和视频的理解与生成。

当前的语言模型在理解那些不容易用文字描述的世界方面有所不足，同时也难以处理复杂的、长篇的任务。视频序列提供了语言和静态图像中缺失的宝贵时间信息，使它们成为与语言联合建模的有吸引力的选择。这样的模型可以发展对人类文本知识和物理世界的理解，从而使AI在帮助人类方面的能力更加广泛。

然而，从数百万个视频和语言序列的标记中学习，由于内存限制、计算复杂性和数据集有限，面临着挑战。为了解决这些挑战，这个团队整合了一个大型的多样化视频和书籍数据集，利用Blockwise RingAttention技术可扩展地训练长序列，并逐渐将上下文大小从4K增加到1M标记。

此图示展示了Large World Model的多模态训练过程：

饼图详细展示了在图像、短视频和长视频中分配的495B个标记，以及33B个文本数据标记的分布。下方的面板展示了在理解和响应关于复杂多模态世界的查询方面的交互能力。